Aprendizaje semisupervisado

En ciencias de la computación, el aprendizaje semi-supervisado es una clase de técnicas de aprendizaje automático que utiliza datos de entrenamiento tanto etiquetados como no etiquetados: normalmente una pequeña cantidad de datos etiquetados junto a una gran cantidad de datos no etiquetados. El aprendizaje semi-supervisado se encuentra entre el aprendizaje no supervisado (sin datos de entrenamiento etiquetados) y el aprendizaje supervisado (con todos los datos de entrenamiento etiquetados). Los investigadores del campo del aprendizaje automático han descubierto que los datos no etiquetados, cuando se utilizan junto a una pequeña cantidad de datos etiquetados, pueden mejorar de forma considerable la exactitud del aprendizaje. La adquisición de datos etiquetados para resolver un problema suele requerir un agente humano capacitado para clasificar de forma manual los ejemplos de entrenamiento. El coste asociado al proceso de etiquetado puede hacer que un conjunto de entrenamiento totalmente etiquetado sea inviable, mientras que la adquisición de datos sin etiquetar es relativamente poco costoso. En estos casos, el aprendizaje semi-supervisado puede ser muy útil.

Un ejemplo de técnica que utiliza aprendizaje semi-supervisado es el co-entrenamiento, donde se entrenan dos o más sistemas cada uno en un conjunto de ejemplos, pero de forma que cada sistema utiliza un conjunto de características diferentes (e idealmente independientes) para cada ejemplo.

Un enfoque alternativo consiste en modelar la distribución de la probabilidad conjunta de las características y las etiquetas. Los datos no etiquetados pueden ser tratados como 'datos que faltan'. Se utiliza de forma común en el algoritmo EM para maximizar la similitud del modelo.